受到NLP通用模型的成功的启发,最近的研究试图以相同的序列格式统一不同的视力任务,并采用自回归的转移器来进行序列预测。他们应用单向关注以捕获顺序依赖性并递归生成任务序列。但是,这种自回旋变压器可能不太符合视觉任务,因为视觉任务序列通常缺乏自然语言中典型地观察到的顺序依赖性。在这项工作中,我们对有效的多任务愿景通用师(MAD)进行了掩饰。疯狂由两个核心设计组成。首先,我们开发了一个并行解码框架,该框架引入双向关注,以全面捕获上下文依赖项并在par-allel中解释视觉任务序列。第二,我们设计了一个掩盖的序列建模ap-prach,通过掩盖和重构任务序列来学习丰富的任务上下文。以这种方式,疯狂通过一个网络分支来处理所有任务,并以最小的特定任务设计来处理简单的跨凝结损失。广泛的实验证明了疯狂作为统一各种视觉任务的新范式的巨大潜力。MAD与自回归对应物相比,同时获得了特定于任务的模型的竞争精度,可以实现卓越的性能和推理效率。代码将在https://github.com/hanqiu-hq/mad上发布。
主要关键词
![arxiv:2403.07692v2 [CS.CV] 2024年3月14日PDF文件第1页](/bimg/5/59aedec501367c2be2e07a17bff58e6cb7ad8fac.webp)
![arxiv:2403.07692v2 [CS.CV] 2024年3月14日PDF文件第2页](/bimg/2/275005832e150d0ddfc51793defe9a5a4836b9c2.webp)
![arxiv:2403.07692v2 [CS.CV] 2024年3月14日PDF文件第3页](/bimg/a/a4f01c1199e8d9a9e9865af5ac159b41974e8f27.webp)
![arxiv:2403.07692v2 [CS.CV] 2024年3月14日PDF文件第4页](/bimg/e/e1f84e0cd3663e33b456961fc3c25d55c40bb7a3.webp)
![arxiv:2403.07692v2 [CS.CV] 2024年3月14日PDF文件第5页](/bimg/3/36182e803a82e970bde4b64fbd86708f14896bf8.webp)
